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摘 E: 为 了 解决 传统 聚 类 方法 在 多 维 数据 集中 聚 类 效果 不 佳 的 问题 ， 提 出 了 将 网 络 社团 划分 的 方法 ， 应 用 到 多 维 
数据 聚 类 分 析 中 。 对 于 一 个 多 维 数据 集 ， 首 先 对 分 析 对 象 进行 特征 提取 ， 构 建 出 每 个 对 象 的 特征 向 量 ， 通 过 计算 皮 
尔 森 相关 系数 来 度量 不 同 特征 向 量 之 间 的 相似 性 ， 从 而 构建 出 一 个 相似 性 网 络 ， 采 用 Blondel 算法 对 该 网 络 进行 社 
团 划 分 达到 聚 类 的 效果 。 实 验 结果 表明 该 方法 可 以 在 多 维 数据 聚 类 中 得 到 较 好 的 聚 类 结果 ， 准 确 率 达 到 92.5%， 优 
于 k-means 算法 的 75%. 
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Multidimensional data clustering based on network community detection method 
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Abstract: Since the traditional clustering method has an impoverished clustering effect on the multidimensional data, this 
paper used the clustering method based on community detection of complex networks to achieve better results. Firstly, the 
method extracted the features of original data and formed the feature vectors of each object for a multidimensional data set. 
Then it measured the similarity between different feature vectors by calculating Pearson correlation coefficients and 
constructed a similarity network. Finally, it used the Blondel algorithm which detects the community of the network to 
achieve the clustering effect. Experimental results show that this method can get better clustering results in 
multidimensional data clustering with an accuracy rate 92.596, which is better than k-means algorithm with the accuracy rate 
7596. 
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式 模糊 聚 类 方法 ， 该 方法 能 够 解决 事先 没有 精确 给 出 准则 权 
重 的 聚 类 问题 。 
如 何 对 多 维 数据 进行 分 析 ， 挖 掘 到 数据 背后 所 隐 含 的 信 除了 寻找 新 的 聚 类 算法 ， 是 否 可 以 借鉴 不 同 领域 的 方法 
息 ， 这 一 问题 日 益 引 起 了 人 们 的 广泛 关注 。 有 效 而 准确 地 聚 ”应 用 到 多 维 数据 的 分 析 中 达到 较 好 的 聚 类 结果 引起 笔者 深入 
类 对 于 识别 相似 对 象 并 挖掘 不 同类 别 之 间 异 同 具 有 重大 意 。 的 思考 。 经 过 数 十 年 的 发 展 ， 复 杂 网 络 的 研究 在 社会 科学 久 
义 。 受 维度 灾难 叫 的 影响 ， 传 统 的 聚 类 方法 在 低 维度 数据 空 ” 2、 计算 机 科学 0 、 和 生物 科学 0 等 众多 领域 中 有 了 广泛 应 
间 上 表现 良好 ， 而 这 些 方法 在 多 维度 数据 空间 上 往往 不 能 得 用 。 其 中 2002 年 Girvan 和 Newman 指出 复杂 网 络 中 普遍 存 
到 好 的 聚 类 结果 。 寻 找 在 多 维 数据 中 有 效 的 聚 类 方法 已 成 为 ”在 聚 类 特性 5, 并 于 2004 年 提出 了 一 种 发 现 这 些 社团 的 GN 
聚 类 方法 研究 的 重要 方向 。 算法 03。 在 此 之 后 ， 大 量 学 者 对 复杂 网 络 中 的 社团 划分 问题 
聚 类 四 作为 统计 分 析 的 常用 技术 和 数据 挖掘 的 主要 任 进行 了 大 量 研究 ，Papadopoulos 等 人 首次 在 社会 媒体 的 语 境 
务 , 一 直 被 国内 外 学 者 广泛 研究 。Celebi 等 人 Bl 针对 K-means ”中 构造 了 社团 的 概念 多 。Xie 等 人 55 总结 了 最 先进 的 重 爱 社 


T 


算法 聚 类 中 心 初 始 位 置 太 过 敏感 的 问题 ， 研 究 了 已 有 解决 该 ” 团 划 分 算法 质量 度量 的 基准 , E PUCE AI [e] C8 s RE BÉ PEZ nj 
问题 的 初始 化 方法 。Kriegel TAMAR ETERRAK, 不 同 算法 具有 不 同 的 稳定 性 。 社 团 划 分 至 今 仍 存在 一 些 不 明 
将 聚 类 定义 为 比 数据 集 的 其 余部 分 密度 更 高 的 区 域 ， 而 在 稀 。 ” 确 的 问题 ， 如 社团 本 身 的 定义 未 统一 ， 算 法 的 验证 及 其 性 能 
疏 区 域 的 对 象 通常 被 称 为 噪声 和 边界 点 。Tran 等 人 提出 了  ” 的 比较 没有 通用 的 标准 。Fortunato 等 人 09 针 对 这 些 问题 ， 提 
种 改进 的 Dbscan 算法 ， 解 决 了 常规 算法 在 检测 相 邻 篮 的 ”出 了 一 套 指导 流程 ， 指 出 了 现 有 流行 算法 的 优点 和 缺陷 ， 并 
边界 对 象 时 变 得 不 稳定 的 问题 。Ding 等 人 加 针对 类 别 之 间 的 ”给 出 了 不 同 算法 的 使 用 方向 。 杨 等 人 07 基 于 拉 普 拉 斯 矩阵 多 
差异 会 掩盖 子 类 间 的 差异 的 问题 ， 提 出 了 一 种 全 新 兴 代 聚 类 —— 重 特 征 向 量 提 出 了 一 种 有 向 网 络 社团 结构 划分 算法 ， 同 时 丰 
的 框架 ， 该 框架 可 以 在 识别 出 大 类 之 后 ， 近 一 步 识别 出 细微 ” 究 了 动态 网 络 中 新 社团 成 员 的 演化 特性 0。 
的 差异 ， 提 供 全 面 的 聚 类 轨迹 。ZhangD 提 出 了 一 种 新 的 勾 股 网 络 中 的 的 社团 与 常规 聚 类 算法 中 的 类 的 概念 是 一 至 
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日 到 聚 类 分 析 中 
方法 在 多 维 数 据 上 聚 类 效果 


避 划 分 的 思想 ， 


数据 的 聚 类 中 。 
方法 得 到 的 聚 类 结 
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程 如 图 1 所 示 
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实验 流程 图 


针对 多 维 数据 集 进行 分 市 
首先 对 原始 数据 集 进行 预 处 理 
时, 根据 分 析 需 求 和 实际 场 
随后 计算 不 同 研究 对 象 的 特 笨 
再 对 该 网 络 运 
到 聚 类 效果 ， 最 后 可 对 聚 类 上 
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d) 将 步骤 c) 得 到 的 社团 结构 中 的 每 个 社团 视 为 新 的 节 
点 ， 构 造 新 的 网 络 ， 重 复 执 行 步骤 bjc)， 直 到 社团 的 结构 不 


网 络 的 划分 


Tff. 


用 ， 本 文 设计 了 


套 处 理 流程 ， 


景 对 研究 对 象 


， 去 除 异 常 值 、 空 缺 值 等 异常 
进行 特征 


的 获取 ， 
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图 1 


的 结果 进行 进 


i Blondel 算法 进行 社 


Fig. 1 Experimental flow graph 


F 之 间 的 相关 系数 从 


而 构造 出 相 


HX). XA 


步 分 析 。 实 验 过 


1.1 网 络 的 构建 
网 络 的 节点 代表 聚 类 的 对 象 , 边 代表 对 象 之 间 的 相关 性 。 
任意 两 个 对 象 i 和 对 象 j 的 皮尔 森 相关 系数 由 式 (1) 定 义 。 
D.D3- cov(D., D;) 
SPP) Veov(D, D.) cov(D,. D,) (1) 
dn S Bez RTHOS RC Jeorr(D.D;)2 e(6e[-L1) ,. HUHH 
点 i 和 j 之 间 有 连 边 , ix 8) o BUE x. XeHocrxe gm fé uy 
以 构造 出 具有 明显 拓扑 结构 的 网 络 ， 有 利于 后 续 研 究 展 开 。 


1.2 Blondel 社团 划分 算法 


Newman 等 人 在 2004 4 


FE 首先 提出 了 模块 度 的 概念 , 模块 


度 是 一 种 衡量 社团 划分 质量 的 指标 。 如 式 (2) 所 示 。 


对 于 所 研究 的 网 络 而 言 ， 式 中 本 表示 网 络 的 邻 


kk, 
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2 zls Hu assis P 


表示 节点 i 的 度 ，m 是 网 络 的 边 数 ， 


团 ， 当 C=C; 时 ， 9(c.c;) 21, fa 


G 是 节点 :所属 的 社 


1 为 0; 2 值 在 0 和 


(2) 
HERE, 


1 之 间 。 


再 改变 为 止 。 
2 ”实验 及 分 析 


2.1 实验 数据 
本 文采 取 了 国 
55 辆 车 的 数据 ， 针 
数据 集 包 含有 记录 
位 置 经 度 ， 位 置 纬 度 ，CAN 速度 ， 
2.2 数据 清洗 

首先 对 原始 数据 进行 清洗 。 针 对 实际 数据 在 收集 的 过 程 
中 出 现 的 缺失 数据 ， 本 文 根 据 实际 业务 分 析 ， 采 用 了 hot 


+ 


内 某 条 公交 线路 2017 年 9 月 133 名 司机 、 
对 该 线路 的 公交 司机 进行 聚 类 分 析 研 究 。 
B], GRIJE, Æ ID, AWR ID, 
等 17 个 字段 。 


deckP9 填 补 法 ， 即 就 近 补 齐 法 。 
本 文 对 原始 数据 进行 了 逻辑 错误 检测 。 例 如 在 行车 路 程 
轨迹 段 ， 有 部 分 车 辆 的 车 速 数 据 超 过 正常 范围 达到 了 


120km/h， 针 对 该 非常 规 数据 的 处 理 方法 是 删除 这 个 轨迹 段 。 
对 于 一 些 数据 缺失 较 多 的 字段 ， 例 如 司机 制 动 踏板 开 度 字段 
信息 缺失 率 接 近 100%， 本 文 进行 舍弃 人 处理。 对 于 一 些 数据 
字段 中 存在 异常 值 的 情况 , 例如 电机 转速 达到 16 383 转速 的 
异常 值 , 则 直接 将 异常 值 蔡 换 为 空白 值 , 将 空白 值 就 近 补 齐 。 
2.83 ”特征 获取 

为 了 让 司机 的 行为 特征 具有 可 比 性 ， 本 文 设 定 一 种 具体 
的 分 析 场 景 ， 即 司机 驾驶 公交 车 从 起 点 到 终点 为 完整 的 一 趟 
行车 记录 ， 以 此 作为 每 个 司机 的 行为 特征 计算 的 基准 。 
首先 将 清洗 后 的 数据 按照 趟 的 场景 进行 切 分 ， 在 切片 后 
的 数据 中 提取 出 司机 每 一 趟 驾驶 公交 车 的 行为 特征 。 根 据 有 
效 数据 和 场景 推断 , 本 文选 取 的 特征 为 加 速度 绝对 值 平均 值 ; 
加 速度 绝对 值 标准 差 ， 车 速 平均 值 ， 车 速 标准 差 ， 电 子 刹车 
使 用 概率 ， 脚 刹 使 用 概率 ， 油门 踏板 百分比 平均 值 ， 油 门 踏 
板 百分比 标准 差 ， 车 速 中 位 数 共 九 个 特征 。 其 中 对 于 车 辆 加 
速 和 减速 造成 加 速度 正 负 值 问题 ， 本 文 对 加 速度 取 绝 对 值 进 
行 计算 。 
2.4 ”相似 性 网 络 建 模 

司机 驾驶 公交 车 行驶 一 趟 公交 线路 的 属性 可 以 表示 为 一 
个 n 维 向量 D={6,x2.…%} ， 其 中 代表 司机 行驶 的 第 i 趟 ， 


0 值 越 大 说 明 社团 划分 出 的 结构 越 有 效 。 ,sh 表示 第 1 趟 行驶 过 程 中 有 关 司机 驾驶 的 个 行为 特 
Blondel 等 人 (9 在 2008 年 提出 一 种 基于 模块 度 的 快速 聚 ”” 征 属性 。 依据 不 同 赵 的 行为 特征 的 相似 性 进行 网 络 构建 ,本文 
类 算法 。 它 主要 目标 是 不 断 划分 社团 使 得 划分 后 的 整个 网 络 。 采取 皮尔 森 相 关系 数 来 度量 不 同 司机 之 间 的 特征 相似 性 ,由 式 
的 模块 度 不 断 增 大 ， 划 分 后 的 网 络 模块 度 越 大 ， 说 明 社团 划 OF 
分 的 效果 越 好 。 文 献 中 提出 当 节 点 1 被 划分 到 社团 C 中 去 时 ， armoe LEDs) n 
社团 C 的 模块 度 增益 计算 公式 如 式 (3) 所 示 。 H ToD, D) coD, D, 
i Hip. D, 和 D) 分 别 为 第 ; 趟 和 第 J 趟 驾驶 行为 特征 属性 向 
AQ | es] e (2 GJ O — 量 ， 着 两 趟 行驶 过 程 中 驾驶 行为 特征 在 各 分 量 特 征 上 具有 
定 的 相似 性 ， 则 给 这 两 趟 驾驶 行为 特征 向 量 构建 一 条 连 边 。 
和 根据 趟 (D) 计 算 相似 性 ， 设 定 阔 值 0.15， 当 不 同 趟 的 驾驶 行为 
中 之 "是 5 社团 中 的 内 部 连接 权重 的 总 和 ， 之 ”是 社团 。 特征 向 量 间 的 相似 性 大 于 该 阔 值 时 ， 建 立 连 边 。 最 终 得 到 的 
指向 节点 的 所 有 连接 权重 的 总 和 ，& 是 节点 ;与 社团 中 其 他 。 ”网络 包含 879 个 节点 ，386760 条 连 边 。 节 点 平均 度 为 440. 
节点 连接 权重 的 总 和 。 25 ” 聚 类 结果 及 准确 性 度量 
算法 描述 如 下 : 根据 皮尔 森 相 关系 数 构建 出 的 网 络 ， 采 取 了 Blondel $ 
a) 将 网 络 中 每 个 节点 视 作 单独 的 一 个 社团 ; 法 进行 社团 划分 , 得 到 社团 数量 为 3 类 , 其 中 第 1 类 包含 679 
b) 对 每 一 个 节点 ， 将 每 个 节点 尝试 划分 到 与 其 邻接 的 点 。 趟 驾驶 行为 ,101 个 不 同 司机 ， 第 2 类 包含 199 趟 驾驶 行为， 
所 在 的 社团 中 ， 计 算 此 时 的 模块 度 ， 判 断 划分 前 后 的 模块 度 。 “40 个 不 同 司机 ， 第 3 类 包含 1 趟 驾驶 行为 ， 其 中 只 包含 1 个 
的 差 值 AO 是 否 为 正 数 ， 若 为 正 数 ， 则 接受 此 次 划分 ， 若 不 Fl 
为 正 数 ， 则 放弃 本 次 划分 ; 在 每 一 个 类 别 中 ， 以 每 趟 行车 记录 的 行为 特征 为 聚 类 对 


c) £A WE b), 


直到 社团 


划分 后 的 模块 度 不 再 增 大 为 止 ; 


象 ， 即 对 一 个 司机 而 言 ， 若 他 的 行为 特征 具有 稳定 性 ， 他 的 
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每 趟 行车 记录 都 会 聚 到 同一 个 类 别 中 ， 若 存在 司机 行为 发 生 
变化 的 情况 下 ， 则 会 导致 行车 记录 聚 到 不 同 的 类 中 。 因 此 本 
文 定义 了 一 种 司机 平均 分 类 准确 性 指标 ， 如 果 每 趟 行车 记录 
司机 行为 都 能 有 效 分 到 同样 的 类 中 ， 表 明 分 类 准确 性 最 高 。 
平均 分 类 准确 性 的 定义 公式 如 式 (4) 所 示 。 


m 


p = um C, =1,2,3 (4) 


c 


m 


其 中 : ww 为 司机 i 行驶 的 总 趟 数 ，C 为 分 类 结果 ，w 为 第 GC 类 
中 该 司机 的 行车 趟 数 ，max{n?} 表示 该 司机 行驶 记录 最 多 的 趟 
改 聚 到 某 类 中 的 数量 。 理 想 状态 下 ， 单 个 司机 的 驾驶 记录 都 
会 分 到 一 个 类 中 ， 那 么 maxi )/n-71. m2gs gus. w 
对 所 有 司机 的 分 类 准确 性 计算 均值 ， 得 到 平均 分 类 准确 性 。 
司机 聚 类 准确 性 示例 如 表 1 所 示 。 

表 1 司机 聚 类 准确 性 示例 表 


Table 1 The sample of driver clustering accuracy 
司机 x OE 加 速度 油 门 踏板 RK 
平均 值 ”绝对 值 平均 值 ”百分比 平均 值 ”结果 
车 1 2 0.22 17 第 一 类 
司机 1 车 1! 19 0.19 14 第 一 类 
车 1! 18 0.21 16 第 一 类 
车 22 20 0.24 8 第 二 类 
司机 2 车 2 19 0.22 9 第 二 类 
车 22 18 0.21 8 第 二 类 
zy 21 0.2 7 第 二 类 
车 4$ 19 0.21 17 第 一 类 
车 43 22 0.25 19 第 一 类 
司机 3 车 和 4 18 0.23 16 第 一 类 
E5 19 0.22 8 第 二 类 
£5 20 0.23 g 第 二 类 
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以 表 1 为 例 ， 司 机 1 仅 驾 驶 了 车 1， 这 三 趟 驾驶 行为 差 
异 较 小 , 均 被 分 到 类 1 中 ,那么 该 司机 的 分 类 准确 性 为 100%。 
司机 2 驾驶 过 车 2 和 车 3, 驾驶 两 辆 车 行为 差异 不 大 , 司机 2 
的 所 有 记录 都 分 到 了 类 2, 分 类 准确 性 为 100%。 司机 3 驾驶 
过 车 4 和 车 S$， 驾 驶 车 4 的 三 趟 记录 分 到 了 类 1， 驾 驶 车 5 
的 两 趟 记录 分 到 了 类 2, 分 类 准确 性 为 3/5*100%=60%。 最 终 
得 到 的 3 个 司机 的 平均 分 类 准确 性 为 (100%+100%+60%) 
/3=86.67%。 

为 了 对 比 上 述 方法 的 优 缺 点 ， 本 文 设置 聚 类 簇 的 个 数 为 
3， 采 用 K-means 算法 对 划分 好 的 “ 趟 ”数据 进行 聚 类 分 析 ， 
得 到 K-means 算法 的 结果 ,根据 本 文 的 分 类 准确 性 验证 方法 ， 
验算 K-means 算法 计算 的 平均 准确 性 为 75%， 而 Blondel 算 
法 在 阔 值 确定 的 情况 下 准确 率 为 92.5%。 相 比 K-means 算法 
准确 率 明 显 提高 。 


3 ”结束 语 


本 文 提出 将 网 络 社团 划分 的 算法 一 一 Blondel 算法 应 用 
到 多 维 数据 的 聚 类 分 析 中 。 通 过 对 实际 公交 运营 数据 的 分 析 ， 
设计 出 具体 的 公交 车 辆 从 起 点 到 终点 为 一 趟 的 分 析 场 景 。 根 
据 每 趟 驾驶 行为 的 属性 向 量 之 闻 的 相似 性 构造 出 网 络 。 采 用 
Blondel 算法 对 该 网 络 进行 社团 划分 ,得 到 聚 类 的 结果 。 通 过 
提出 的 准确 率 度量 方法 进行 准确 率 度量 ， 结 果 显 示 网 络 社团 
划分 算法 准确 率 达 到 92.5%， 优 于 K-means 聚 类 算法 75% 的 
准确 率 。 
多 维 数据 的 聚 类 分 析 在 众多 领域 有 着 广泛 的 应 用 前 景 。 
本 文 使 用 网 络 的 社团 划分 方法 对 多 维 数据 进行 聚 类 ， 但 是 对 
于 更 高 维度 的 数据 上 的 聚 类 效果 还 需 继续 进一步 研究 。 同 时 
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对 于 多 维 数据 上 的 聚 类 算法 可 以 从 更 多 的 角度 思考 与 研究 。 
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